基于深入的学习的诊断性能随着更多的注释数据而增加,但手动注释是大多数领域的瓶颈。专家在临床常规期间评估诊断图像,并在报告中写出他们的调查结果。基于临床报告的自动注释可以克服手动标记瓶颈。我们假设可以使用这些报告的稀疏信息引导的模型预测来生成用于检测任务的密度注释。为了证明疗效,我们在放射学报告中临床显着发现的数量指导的临床上显着的前列腺癌(CSPCA)注释。我们包括7,756个前列腺MRI检查,其中3,050人被手动注释,4,706次自动注释。我们对手动注释的子集进行了自动注释质量:我们的得分提取正确地确定了99.3 \%$ 99.3 \%$ 99.3 \%$的CSPCA病变数量,我们的CSPCA分段模型正确地本地化了83.8 \ PM 1.1 \%$的病变。我们评估了来自外部中心的300名检查前列腺癌检测表现,具有组织病理学证实的基础事实。通过自动标记的考试增强培训集改善了在接收器的患者的诊断区域,从$ 88.1 \ pm 1.1 \%$至89.8 \ pm 1.0 \%$($ p = 1.2 \ cdot 10 ^ { - 4} $ )每案中的一个错误阳性的基于病变的敏感性,每案件从79.2美元2.8 \%$ 85.4 \ PM 1.9 \%$($ P <10 ^ { - 4} $),以$ alm \ pm std。$超过15个独立运行。这种改进的性能展示了我们报告引导的自动注释的可行性。源代码在https://github.com/diagnijmegen/report-guiding-annotation上公开可用。最佳的CSPCA检测算法在https://grand-challenge.org/algorithms/bpmri-cspca-detection-report-guiding-annotations/中提供。
translated by 谷歌翻译
Pre-trained language models (LMs) store knowledge in their parameters and can generate informative responses when used in conversational systems. However, LMs suffer from the problem of "hallucination:" they may generate plausible-looking statements that are irrelevant or factually incorrect. To address this problem, we propose a contrastive learning scheme, named MixCL. A novel mixed contrastive objective is proposed to explicitly optimize the implicit knowledge elicitation process of LMs, and thus reduce their hallucination in conversations. We also examine negative sampling strategies of retrieved hard negatives and model-generated negatives. We conduct experiments on Wizard-of-Wikipedia, a public, open-domain knowledge-grounded dialogue benchmark, and assess the effectiveness of MixCL. MixCL effectively reduces the hallucination of LMs in conversations and achieves the highest performance among LM-based dialogue agents in terms of relevancy and factuality. We show that MixCL achieves comparable performance to state-of-the-art KB-based approaches while enjoying notable advantages in terms of efficiency and scalability.
translated by 谷歌翻译
Existing natural language understanding (NLU) models often rely on dataset biases rather than intended task-relevant features to achieve high performance on specific datasets. As a result, these models perform poorly on datasets outside the training distribution. Some recent studies address the above issue by reducing the weights of biased samples during the training process. However, these methods still encode biased latent features in representations and neglect the dynamic nature of bias, which hinders model prediction. We propose an NLU debiasing method, named debiasing contrastive learning (DCT), to simultaneously alleviate the above problems based on contrastive learning. We devise a debiasing positive sampling strategy to mitigate biased latent features by selecting the least similar biased positive samples. We also propose a dynamic negative sampling strategy to capture the dynamic influence of biases by employing a bias-only model to dynamically select the most similar biased negative samples. We conduct experiments on three NLU benchmark datasets. Experimental results show that DCT outperforms state-of-the-art baselines on out-of-distribution datasets while maintaining in-distribution performance. We also verify that DCT can reduce biased latent features from the model's representations.
translated by 谷歌翻译
Predicting discrete events in time and space has many scientific applications, such as predicting hazardous earthquakes and outbreaks of infectious diseases. History-dependent spatio-temporal Hawkes processes are often used to mathematically model these point events. However, previous approaches have faced numerous challenges, particularly when attempting to forecast one or multiple future events. In this work, we propose a new neural architecture for multi-event forecasting of spatio-temporal point processes, utilizing transformers, augmented with normalizing flows and probabilistic layers. Our network makes batched predictions of complex history-dependent spatio-temporal distributions of future discrete events, achieving state-of-the-art performance on a variety of benchmark datasets including the South California Earthquakes, Citibike, Covid-19, and Hawkes synthetic pinwheel datasets. More generally, we illustrate how our network can be applied to any dataset of discrete events with associated markers, even when no underlying physics is known.
translated by 谷歌翻译
分析脑电图时,神经科医生经常在寻找各种“感兴趣的事件”。为了在这项任务中支持他们,已经开发了各种基于机器学习的算法。这些算法中的大多数将问题视为分类,从而独立处理信号段并忽略了持续时间事件固有的时间依赖性。在推理时,必须在处理后进行处理以检测实际事件。我们提出了一种基于深度学习的端到端事件检测方法(EventNet),该方法直接与事件一起作为学习目标,从临时的后处理方案逐渐消失,以将模型输出转化为事件。我们将EventNet与用于人工制品和癫痫发作检测的最新方法进行了比较,这两种事件类型具有高度可变的持续时间。 EventNet在检测两种事件类型方面显示出改进的性能。这些结果表明,将事件视为直接学习目标的力量,而不是使用临时后处理来获取它们。我们的事件检测框架可以轻松地扩展到信号处理中的其他事件检测问题,因为深度学习骨干链不取决于任何特定于任务的功能。
translated by 谷歌翻译
个性化的纵向疾病评估对于快速诊断,适当管理和最佳调整多发性硬化症(MS)的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里,我们设计了一种新型的纵向模型,以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先,我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来,我们通过插补对待缺失的数据。然后,我们通过使用广义估计方程来发现MS的潜在标记。随后,从多个培训数据集中学到的参数被结合起来形成一个简单的,统一的纵向预测模型,以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估,最终模型结合了第一天的数据。结果表明,所提出的模型有望实现个性化的纵向MS评估。他们还表明,与步态和平衡以及上肢功能有关的功能(从基于传感器的评估中远程收集)可能是预测MS随时间推移的有用数字标记。
translated by 谷歌翻译
避免在监督学习中过度拟合的一种常见方法是尽早停止,在训练期间,将持有的设置用于迭代评估,以在训练步骤数量中找到最大概括的训练步骤。但是,这样的方法需要一个不相交的验证集,因此通常为此目的遗漏了训练集的标记数据的一部分,当训练数据稀缺时,这并不理想。此外,当训练标签嘈杂时,模型在验证集中的性能可能不是准确的概括代理。在本文中,我们提出了一种方法,可以在训练迭代中发现早期停止点而无需进行验证集。我们首先表明,在过度参数化的方向上,线性模型的随机初始化权重在训练过程中收敛到同一方向。使用此结果,我们建议训练用不同随机种子初始初始化的线性模型的两个平行实例,并使用它们的交点作为信号来检测过度拟合。为了检测相交,我们在训练迭代过程中使用平行模型的重量之间的余弦距离。注意到NN的最后一层是输出逻辑的前层层激活的线性图,我们使用反事实权重的新概念来建立线性模型的标准,并提出向多层网络的扩展。我们对两个领域进行实验,这些领域的早期停止对防止过度拟合NN具有明显的影响:(i)从嘈杂的标签中学习; (ii)学习在IR中排名。我们在四个广泛使用的数据集上进行的实验证实了我们的概括方法的有效性。对于广泛的学习率,我们的方法称为余弦距离标准(CDC),比我们几乎在所有测试的情况下与所有方法相比的所有方法平均得出更好的概括。
translated by 谷歌翻译
当使用临床医生或人工智能(AI)系统的医学图像进行诊断时,重要的是图像具有高质量。当图像质量低时,产生图像的体检通常需要重做。在远程医疗中,一个普遍的问题是,只有在患者离开诊所后才标记质量问题,这意味着他们必须返回才能重做考试。对于居住在偏远地区的人们来说,这可能是特别困难的,他们在巴西的数字医疗组织Portemedicina占了大部分患者。在本文中,我们报告了有关(i)实时标记和解释低质量医学图像的AI系统的正在进行的工作,(ii)采访研究,以了解使用AI系统的利益相关者的解释需求在OurCompany和(iii)纵向用户研究设计,旨在检查包括对我们诊所中技术人员工作流程的解释的效果。据我们所知,这将是评估XAI方法对最终用户的影响的首次纵向研究 - 使用AI系统但没有AI特定专业知识的利益相关者。我们欢迎对我们的实验设置的反馈和建议。
translated by 谷歌翻译
学习的推荐系统可能会无意间泄露有关其培训数据的信息,从而导致侵犯隐私行为。我们调查了推荐系统通过成员推理面临的隐私威胁。在这种攻击中,对手旨在推断用户的数据是否用于训练目标推荐人。为了实现这一目标,以前的工作使用了阴影推荐人来为攻击模型得出训练数据,然后通过计算用户历史互动和推荐项目之间的差异向量来预测成员资格。最先进的方法面临两个具有挑战性的问题:(1)由于阴影和目标推荐人之间的差距,攻击模型的培训数据偏见,并且(2)推荐人中的隐藏状态没有观察到,导致估计不准确差矢量。为了解决上述局限性,我们提出了针对推荐系统(DL-MIA)框架的成员推理攻击的偏见学习,该框架具有四个主要组件:(1)差异向量生成器,(2)分发式编码器,(3)重量估算器和(4)攻击模型。为了减轻推荐人之间的差距,设计了基于变异的自动编码器(VAE)的分解编码器,以识别推荐人不变和特定功能。为了减少估计偏差,我们设计了一个权重估计器,为每个差异向量分配了真实级别的得分,以指示估计精度。我们对三个现实世界数据集的一般推荐人和顺序推荐人评估了DL-MIA。实验结果表明,DL-MIA有效地减轻了同时减轻培训和估计的偏见,并实现了最先进的攻击性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译